Praca Domowa 1

Bartosz Siński Winiarze

Przygotowanie modelu

Wyjaśnienia

Na początku pokażemy wartości SHAP zmiennych dla całego zbioru X_train

Jak widać średnio największy wpływ na predykcje naszego modelu mają zmienne alkohol,sulphates,volatile acidity i total sulfur dioxide czego mogliśmy się spodziewać po badaniu korelacji zmiennych z naszą zmienną celu podczas eksploracji danych. Reszta zmiennych wydaje się mieć podobny wpływ na nasz model. Zobaczymy czy wszytkie badane przez nas obserwacje będą miały podobne wartości SHAP.

Dekompozaycja predykcji modelu dla wybranej obserwacji

Już w pierwszej badanej przez nas obserwacji wsród trzech zmiennych najbardziej wpływających na predykcje modelu nie ma alkoholu, a kwasowość lotna wpływa negatywnie na predykcje naszego modelu. Widać więc, że wartości SHAP zmiennych w tej obserwacji nieco różnią się od uśrednionych dla całego zbioru X_train.

Obserwacje z innymi najważniejszymi zmiennymi

Pierwsze trzy najważniejsze zmienne dla obydwu oberwacji są różne. Dla pierwszej obserwacji zmienną, która najbardziej wpływa na predykcję modelu jest alkohol. Jego wskaźnik contribution wynosi 0.384 i prawie samodzielnie decyduje o tym czy wino jest uznane przez model za dobre. Może być to spowodowane tym, że wartości reszty zmiennych są zbliżone do ich median. Co ciekawe dla drugiej obserwacji duże znaczenie ma PH, które średnio jest namniej znaczącą zmienną. Dodatkowo w drugiej obserwacji wsród najwazniejszych zmiennych nie ma alkoholu.

Obserwacje, które mają dla tych samych zmiennych inne efekty

Dla powyższych obserwacji zmiennymi posiadającymi przeciwne wpływy na wynik predykcji to alcohol,sulphates,total sulfur dioxide,fixed acidity,residual sugar i PH. Czasami małe różnice w wartościach na przykład zawartość siarczynów (sulphates) albo alkoholu mogą mieć kompletnie inny wpływ na predykcję danej obserwacji. Także wartość nieodfermentowanego cukru (residual sugar) jest prawie taka sama w obu obserwacjach (zakres wartości to 14.6). Mimo to jednak w obu obserwacjach wartość bezwględna wkładu(contribution) obu tych zmiennych różni się ok. 13 krotnie i w pierwszej obserwacji ma pozytywny efekt, a w drugiej negatywny. Dzieje się tak poprzez wpływ innych zmiennych na predykcję modelu.